[paddle inference ,mmha]head_dim case 10/26 were deleted, because they would trigger misalignedAddr cudaError (#64081)

YKTian-x2b · web-flow · commit 065eef707736 · 2024-05-08T15:38:05.000+08:00
diff --git a/paddle/phi/kernels/fusion/gpu/masked_multihead_attention_kernel.cu b/paddle/phi/kernels/fusion/gpu/masked_multihead_attention_kernel.cu
@@ -709,18 +709,10 @@ void fmha_impl(const phi::GPUContext &dev_ctx,
                LoadFunc load_func,
                StoreFunc store_func) {
   switch (dim_head) {
-    case 10:
-      fmha_launch_kernel<T, 10, 32>(
-          params, dev_ctx.stream(), load_func, store_func);
-      break;
     case 16:
       fmha_launch_kernel<T, 16, 32>(
           params, dev_ctx.stream(), load_func, store_func);
       break;
-    case 26:
-      fmha_launch_kernel<T, 26, 32>(
-          params, dev_ctx.stream(), load_func, store_func);
-      break;
     case 32:
       fmha_launch_kernel<T, 32, 32>(
           params, dev_ctx.stream(), load_func, store_func);
@@ -729,7 +721,6 @@ void fmha_impl(const phi::GPUContext &dev_ctx,
       fmha_launch_kernel<T, 64, 64>(
           params, dev_ctx.stream(), load_func, store_func);
       break;
-    // for opt model
     case 80:
       fmha_launch_kernel<T, 80, 128>(
           params, dev_ctx.stream(), load_func, store_func);