PaddlePaddle
diff --git a/‎README.md
Lines changed: 2 additions & 2 deletions b/‎README.md
Lines changed: 2 additions & 2 deletions
diff --git a/‎csrc/flash_attn/fmha_api.cpp
Lines changed: 17 additions & 13 deletions b/‎csrc/flash_attn/fmha_api.cpp
Lines changed: 17 additions & 13 deletions
diff --git a/‎csrc/flash_attn/src/fmha.h
Lines changed: 1 addition & 0 deletions b/‎csrc/flash_attn/src/fmha.h
Lines changed: 1 addition & 0 deletions
diff --git a/‎csrc/flash_attn/src/fmha/kernel_traits.h
Lines changed: 5 additions & 1 deletion b/‎csrc/flash_attn/src/fmha/kernel_traits.h
Lines changed: 5 additions & 1 deletion
diff --git a/‎csrc/flash_attn/src/fmha_dgrad_fp16_kernel_loop.sm80.cu
Lines changed: 94 additions & 92 deletions b/‎csrc/flash_attn/src/fmha_dgrad_fp16_kernel_loop.sm80.cu
Lines changed: 94 additions & 92 deletions
@@ -31,12 +31,12 @@ Our tentative roadmap:
 2. ~~[Jun 2022] Support SM86 GPUs (e.g., RTX 3080, 3090)~~[Done].
 3. [Jun 2022] Refactor to use Cutlass.
 4. ~~[Jun 2022] Support SM75 GPUs (e.g. T4)~~[Done].
-5. [Jun 2022] Support bf16.
+5. ~~[Jun 2022] Support bf16~~[Done].
 6. ~~[Jul 2022] Implement cross-attention~~[Done].
 7. ~~[Jul 2022] Support head dimension 128~~[Done].
 8. [Jul 2022] Support SM70 GPUs (V100).
 9. [Aug 2022] Fuse rotary embedding.
-10. [Aug 2022] Support Attention linear bias (e.g. ALiBi).
+10. [Aug 2022] Support attention bias (e.g. ALiBi, relative positional encoding).
 
 ## Speedup and Memory Savings
 
 
@@ -56,11 +56,13 @@ void set_params_fprop(FMHA_fprop_params &params,
                       bool is_causal) {
 
     Data_type acc_type = DATA_TYPE_FP32;
-    Data_type data_type = DATA_TYPE_FP16;
+    Data_type data_type = !(q.dtype() == torch::kBFloat16) ? DATA_TYPE_FP16 : DATA_TYPE_BF16;
 
     // Reset the parameters
     memset(&params, 0, sizeof(params));
 
+    params.is_bf16 = q.dtype() == torch::kBFloat16;
+
     // Set the pointers and strides.
     params.q_ptr = q.data_ptr();
     params.k_ptr = k.data_ptr();
@@ -192,9 +194,10 @@ mha_fwd(const at::Tensor &q,         // total_q x num_heads x head_size, total_q
     bool is_dropout = p_dropout > 0.0;
     Launch_params<FMHA_fprop_params> launch_params(dprops, stream, is_dropout, return_softmax);
 
-    TORCH_CHECK(q.dtype() == torch::kFloat16);
-    TORCH_CHECK(k.dtype() == torch::kFloat16);
-    TORCH_CHECK(v.dtype() == torch::kFloat16);
+    auto q_dtype = q.dtype();
+    TORCH_CHECK(q_dtype == torch::kFloat16 || (is_sm8x && q_dtype == torch::kBFloat16));
+    TORCH_CHECK(k.dtype() == q_dtype);
+    TORCH_CHECK(v.dtype() == q_dtype);
     TORCH_CHECK(cu_seqlens_q.dtype() == torch::kInt32);
     TORCH_CHECK(cu_seqlens_k.dtype() == torch::kInt32);
 
@@ -326,14 +329,15 @@ mha_bwd(const at::Tensor &dout,  // total_q x num_heads, x head_size
     bool is_dropout = p_dropout > 0.0;
     auto stream = at::cuda::getCurrentCUDAStream().stream();
 
-    TORCH_CHECK(q.dtype() == torch::kFloat16);
-    TORCH_CHECK(k.dtype() == torch::kFloat16);
-    TORCH_CHECK(v.dtype() == torch::kFloat16);
-    TORCH_CHECK(out.dtype() == torch::kFloat16);
-    TORCH_CHECK(dout.dtype() == torch::kFloat16);
-    TORCH_CHECK(dq.dtype() == torch::kFloat16);
-    TORCH_CHECK(dk.dtype() == torch::kFloat16);
-    TORCH_CHECK(dv.dtype() == torch::kFloat16);
+    auto q_dtype = q.dtype();
+    TORCH_CHECK(q_dtype == torch::kFloat16 || (is_sm8x && q_dtype == torch::kBFloat16));
+    TORCH_CHECK(k.dtype() == q_dtype);
+    TORCH_CHECK(v.dtype() == q_dtype);
+    TORCH_CHECK(out.dtype() == q_dtype);
+    TORCH_CHECK(dout.dtype() == q_dtype);
+    TORCH_CHECK(dq.dtype() == q_dtype);
+    TORCH_CHECK(dk.dtype() == q_dtype);
+    TORCH_CHECK(dv.dtype() == q_dtype);
     TORCH_CHECK(cu_seqlens_q.dtype() == torch::kInt32);
     TORCH_CHECK(cu_seqlens_k.dtype() == torch::kInt32);
 
@@ -720,4 +724,4 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
     m.def("bwd", &mha_bwd, "Backward pass");
     m.def("fwd_block", &mha_fwd_block, "Forward pass (blocksparse)");
     m.def("bwd_block", &mha_bwd_block, "Backward pass (blocksparse)");
-}
+}
@@ -123,6 +123,7 @@ struct FMHA_fprop_params : public Qkv_params {
     // Random state.
     at::PhiloxCudaState philox_args;
 
+    bool is_bf16;
     bool is_causal;
 };
 
 
@@ -25,11 +25,13 @@
  *
  ******************************************************************************/
 
+#include <cuda_fp16.h>
+
 #pragma once
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template<int S, int D, int STEP, int WARPS_M, int WARPS_N, uint32_t FLAGS = 0x08u>
+template<int S, int D, int STEP, int WARPS_M, int WARPS_N, uint32_t FLAGS = 0x08u, typename elem_type_=__half>
 struct FMHA_kernel_traits {
 
     // The CTA description for the 1st GEMM.
@@ -80,6 +82,8 @@ struct FMHA_kernel_traits {
     // The shared memory tile to store dp sum.
     using Smem_dp_sum = fmha::Smem_tile_dp_sum<Gmem_tile_q, 2>;
 
+    using elem_type = elem_type_;
+
     // Make sure the number of threads match.
     static_assert((int)Gmem_tile_o::THREADS_PER_ROW == (int)Smem_tile_o::THREADS_PER_ROW, "");
 
 
@@ -1,6 +1,7 @@
 /* Copyright (c) 2022, Tri Dao.
  */
 
+#include "static_switch.h"
 #include "fmha.h"
 #include "fmha_dgrad_kernel_1xN_loop.h"
 
@@ -22,106 +23,107 @@ void run_fmha_dgrad_fp16_sm80_loop_(const FMHA_dgrad_params &params, cudaStream_
     static_assert(smem_size_dq == 16 * Kernel_traits::Cta_tile_p::K * 4 * Kernel_traits::Cta_tile_p::WARPS_N);
 
     constexpr int smem_size_dq_dk_dv = smem_size_q * 2 + smem_size_v * (Kernel_traits::V_IN_REGS ? 1 : 2) + smem_size_dq + smem_size_s * 2;
-
-    bool is_dropout = params.p_dropout < 1.f;  // params.p_dropout is the probability of "keeping"
-    bool is_causal = params.is_causal;
-    auto kernel = is_dropout
-        ? (is_causal ? &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<Kernel_traits, true, true> : &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<Kernel_traits, true, false>)
-        : (is_causal ? &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<Kernel_traits, false, true> : &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<Kernel_traits, false, false>);
     constexpr int blocksize_c = Kernel_traits::Cta_tile_p::N;
-    if (params.seqlen_k == blocksize_c) {
-        kernel = is_dropout
-            ? (is_causal ? &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<Kernel_traits, true, true, /*loop_steps=*/1> : &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<Kernel_traits, true, false, /*loop_steps=*/1>)
-            : (is_causal ? &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<Kernel_traits, false, true, /*loop_steps=*/1> : &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<Kernel_traits, false, false, /*loop_steps=*/1>);
-    } else if (params.seqlen_k == blocksize_c * 2) {
-        kernel = is_dropout
-            ? (is_causal ? &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<Kernel_traits, true, true, /*loop_steps=*/2> : &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<Kernel_traits, true, false, /*loop_steps=*/2>)
-            : (is_causal ? &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<Kernel_traits, false, true, /*loop_steps=*/2> : &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<Kernel_traits, false, false, /*loop_steps=*/2>);
-    }
-
     // printf("blocksize_c = %d, WARPS_N = %d, Smem size = %d\n", blocksize_c, Kernel_traits::Cta_tile_p::WARPS_N, smem_size_dq_dk_dv);
-    if( smem_size_dq_dk_dv >= 48 * 1024 ) {
-        FMHA_CHECK_CUDA(cudaFuncSetAttribute(
-            kernel, cudaFuncAttributeMaxDynamicSharedMemorySize, smem_size_dq_dk_dv));
-    }
-    dim3 grid(params.b, params.h);
-    kernel<<<grid, Kernel_traits::THREADS, smem_size_dq_dk_dv, stream>>>(params);
-    FMHA_CHECK_CUDA(cudaPeekAtLastError());
+
+    bool is_dropout = params.p_dropout < 1.f;  // params.p_dropout is the probability of "keeping"
+    BOOL_SWITCH(is_dropout, IsDropoutConst, [&] {
+        BOOL_SWITCH(params.is_causal, IsCausalConst, [&] {
+            auto kernel = &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<
+                Kernel_traits, IsDropoutConst, IsCausalConst>;
+            if (params.seqlen_k == blocksize_c) {
+                kernel = &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<
+                    Kernel_traits, IsDropoutConst, IsCausalConst, /*loop_steps=*/1>;
+            } else if (params.seqlen_k == blocksize_c * 2) {
+                kernel = &fmha_dgrad_fp16_sm80_dq_dk_dv_loop_kernel<
+                    Kernel_traits, IsDropoutConst, IsCausalConst, /*loop_steps=*/2>;
+            }
+            if( smem_size_dq_dk_dv >= 48 * 1024 ) {
+                FMHA_CHECK_CUDA(cudaFuncSetAttribute(
+                    kernel, cudaFuncAttributeMaxDynamicSharedMemorySize, smem_size_dq_dk_dv));
+            }
+            dim3 grid(params.b, params.h);
+            kernel<<<grid, Kernel_traits::THREADS, smem_size_dq_dk_dv, stream>>>(params);
+            FMHA_CHECK_CUDA(cudaPeekAtLastError());
+        });
+    });
 }
 
 void run_fmha_dgrad_fp16_sm80(const FMHA_dgrad_params &params, cudaStream_t stream) {
-    if (params.d == 16) {
-        if( params.seqlen_k == 128 ) {
-            using Kernel_traits = FMHA_kernel_traits<128, 16, 16, 1, 8, 0x08u>;
-            run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-        } else if( params.seqlen_k == 256 ) {
-            using Kernel_traits = FMHA_kernel_traits<256, 16, 16, 1, 8, 0x08u>;
-            run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-        } else {
-            // TD [2022-05-15] 512 gives wrong results rn
-            // using Kernel_traits = FMHA_kernel_traits<512, 16, 16, 1, 8, 0x08u>;
-            using Kernel_traits = FMHA_kernel_traits<256, 16, 16, 1, 8, 0x08u>;
-            run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-        }
-    } else if (params.d == 32) {
-        if( params.seqlen_k == 128 ) {
-            using Kernel_traits = FMHA_kernel_traits<128, 32, 16, 1, 8, 0x08u>;
-            run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-        } else if( params.seqlen_k >= 256 ) {
-            using Kernel_traits = FMHA_kernel_traits<256, 32, 16, 1, 8, 0x08u>;
-            run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-        }
-    } else if (params.d == 64) {
-        if( params.seqlen_k == 128 ) {
-            using Kernel_traits = FMHA_kernel_traits<128, 64, 16, 1, 8, 0x08u>;
-            run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-        } else if( params.seqlen_k >= 256 ) {
-            auto dprops = at::cuda::getCurrentDeviceProperties();
-            if (dprops->major == 8 && dprops->minor == 0) {
-                // Don't share smem for K & V, and don't keep V in registers
-                // This speeds things up by 2-3% by avoiding register spills, but it
-                // uses more shared memory, which is fine on A100 but not other GPUs.
-                // For other GPUs, we keep V in registers.
-                using Kernel_traits = FMHA_kernel_traits<256, 64, 16, 1, 8, 0x100u>;
+    BOOL_SWITCH(params.is_bf16, IsBf16Const, [&] {
+        using elem_type = std::conditional<IsBf16Const, __nv_bfloat16, __half>::type;
+        auto dprops = at::cuda::getCurrentDeviceProperties();
+        if (params.d == 16) {
+            if( params.seqlen_k == 128 ) {
+                using Kernel_traits = FMHA_kernel_traits<128, 16, 16, 1, 8, 0x08u, elem_type>;
+                run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
+            } else if( params.seqlen_k == 256 ) {
+                using Kernel_traits = FMHA_kernel_traits<256, 16, 16, 1, 8, 0x08u, elem_type>;
                 run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-            } else if (dprops->major == 8 && dprops->minor > 0) {
-                using Kernel_traits = FMHA_kernel_traits<256, 64, 16, 1, 8, 0x08u>;
+            } else {
+                // TD [2022-05-15] 512 gives wrong results rn
+                // using Kernel_traits = FMHA_kernel_traits<512, 16, 16, 1, 8, 0x08u, elem_type>;
+                using Kernel_traits = FMHA_kernel_traits<256, 16, 16, 1, 8, 0x08u, elem_type>;
                 run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-            } else if (dprops->major == 7 && dprops->minor == 5) {
-                using Kernel_traits = FMHA_kernel_traits<128, 64, 16, 1, 8, 0x08u>;
+            }
+        } else if (params.d == 32) {
+            if( params.seqlen_k == 128 ) {
+                using Kernel_traits = FMHA_kernel_traits<128, 32, 16, 1, 8, 0x08u, elem_type>;
+                run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
+            } else if( params.seqlen_k >= 256 ) {
+                using Kernel_traits = FMHA_kernel_traits<256, 32, 16, 1, 8, 0x08u, elem_type>;
                 run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
             }
+        } else if (params.d == 64) {
+            if( params.seqlen_k == 128 ) {
+                using Kernel_traits = FMHA_kernel_traits<128, 64, 16, 1, 8, 0x08u, elem_type>;
+                run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
+            } else if( params.seqlen_k >= 256 ) {
+                if (dprops->major == 8 && dprops->minor == 0) {
+                    // Don't share smem for K & V, and don't keep V in registers
+                    // This speeds things up by 2-3% by avoiding register spills, but it
+                    // uses more shared memory, which is fine on A100 but not other GPUs.
+                    // For other GPUs, we keep V in registers.
+                    using Kernel_traits = FMHA_kernel_traits<256, 64, 16, 1, 8, 0x100u, elem_type>;
+                    run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
+                } else if (dprops->major == 8 && dprops->minor > 0) {
+                    using Kernel_traits = FMHA_kernel_traits<256, 64, 16, 1, 8, 0x08u, elem_type>;
+                    run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
+                } else if (dprops->major == 7 && dprops->minor == 5) {
+                    using Kernel_traits = FMHA_kernel_traits<128, 64, 16, 1, 8, 0x08u, elem_type>;
+                    run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
+                }
+            }
+        } else if (params.d == 128) {
+            using Kernel_traits = FMHA_kernel_traits<128, 128, 16, 1, 8, 0x100u, elem_type>;
+            run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
         }
-    } else if (params.d == 128) {
-        using Kernel_traits = FMHA_kernel_traits<128, 128, 16, 1, 8, 0x100u>;
-        run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-    }
-    // if (params.d == 64) {
-    //     auto dprops = at::cuda::getCurrentDeviceProperties();
-    //     if (dprops->major == 7 && dprops->minor == 5) {
-    //         using Kernel_traits = FMHA_kernel_traits<128, 64, 16, 1, 8, 0x08u>;
-    //         run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-    //     } else {
-    //         if( params.seqlen_k == 128 ) {
-    //             using Kernel_traits = FMHA_kernel_traits<128, 64, 16, 1, 8, 0x08u>;
-    //             run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-    //         } else if( params.seqlen_k >= 256 ) {
-    //             if (dprops->major == 8 && dprops->minor == 0) {
-    //                 // Don't share smem for K & V, and don't keep V in registers
-    //                 // This speeds things up by 2-3% by avoiding register spills, but it
-    //                 // uses more shared memory, which is fine on A100 but not other GPUs.
-    //                 // For other GPUs, we keep V in registers.
-    //                 using Kernel_traits = FMHA_kernel_traits<256, 64, 16, 1, 8, 0x100u>;
-    //                 run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-    //             } else if (dprops->major == 8 && dprops->minor > 0) {
-    //                 using Kernel_traits = FMHA_kernel_traits<256, 64, 16, 1, 8, 0x08u>;
-    //                 run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-    //             }
-    //         }
-    //     }
-    // }
-    // if (params.d == 128) {
-    //     using Kernel_traits = FMHA_kernel_traits<128, 128, 16, 1, 8, 0x100u>;
-    //     run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
-    // }
+        // if (params.d == 64) {
+        //     if (dprops->major == 7 && dprops->minor == 5) {
+        //         using Kernel_traits = FMHA_kernel_traits<128, 64, 16, 1, 8, 0x08u, elem_type>;
+        //         run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
+        //     } else {
+        //         if( params.seqlen_k == 128 ) {
+        //             using Kernel_traits = FMHA_kernel_traits<128, 64, 16, 1, 8, 0x08u, elem_type>;
+        //             run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
+        //         } else if( params.seqlen_k >= 256 ) {
+        //             if (dprops->major == 8 && dprops->minor == 0) {
+        //                 // Don't share smem for K & V, and don't keep V in registers
+        //                 // This speeds things up by 2-3% by avoiding register spills, but it
+        //                 // uses more shared memory, which is fine on A100 but not other GPUs.
+        //                 // For other GPUs, we keep V in registers.
+        //                 using Kernel_traits = FMHA_kernel_traits<256, 64, 16, 1, 8, 0x100u, elem_type>;
+        //                 run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
+        //             } else if (dprops->major == 8 && dprops->minor > 0) {
+        //                 using Kernel_traits = FMHA_kernel_traits<256, 64, 16, 1, 8, 0x08u, elem_type>;
+        //                 run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
+        //             }
+        //         }
+        //     }
+        // }
+        // if (params.d == 128) {
+        //     using Kernel_traits = FMHA_kernel_traits<128, 128, 16, 1, 8, 0x100u_elem_type>;
+        //     run_fmha_dgrad_fp16_sm80_loop_<Kernel_traits>(params, stream);
+        // }
+    });
 }