remove no useful code and fix bugs

cyj1986 · cyj1986 · commit 2e96673ed53b · 2018-08-02T18:11:37.000+08:00
diff --git a/saber/funcs/impl/cuda/base/cuda_c/saber_attension_lstm.cu b/saber/funcs/impl/cuda/base/cuda_c/saber_attension_lstm.cu
@@ -211,28 +211,15 @@ template<>
     /*for other fc*/
     for (int word_id = 0; word_id < max_len; word_id++) {
         _attn_outs[0]->reshape(first_fc_out_0_shape);
-        //if (word_id > 1) {
-        //    break;
-        //}
         
         if (word_id > 0) {
             Shape h_shape = {seq_num,  N_0, 1, 1};
             _first_fc_out_1.reshape(h_shape);
      
-            //auto kernel_1 = saber_find_fast_sass_gemm(false, !fc_vec[0].is_transpose_weights, seq_num, N_0, hidden_size);
             auto kernel_1 = saber_find_fast_sass_gemm(false, false, seq_num, N_0, hidden_size);
             kernel_1(seq_num, N_0, hidden_size, 1.0f, 
                 _cell_out.data(), 0.f, 
-                fc_vec[0].weights->data() + K_0 * N_0,  _first_fc_out_1.mutable_data(), stream);
-            //cudaDeviceSynchronize();
-            //print_tensor_device(_lstm_out);
-            //print_tensor_device(*(fc_vec[0]->weights));
-            //cudaDeviceSynchronize();
-            //gemm(_handle, false, false, seq_num, N_0, hidden_size, 
-            //    1.0, _lstm_out.data() + (word_id - 1) * seq_num * hidden_size,
-            //    fc_vec[0]->weights->data() + K_0 * N_0, 
-            //    0.f, _first_fc_out_1.mutable_data());
-            //cudaDeviceSynchronize();
+               fc_vec[0].weights->data() + K_0 * N_0,  _first_fc_out_1.mutable_data(), stream);
 
             sequence_bias_relu<<<CUDA_GET_BLOCKS(_attn_outs[0]->valid_size()), CUDA_NUM_THREADS, 0, stream>>>(_first_fc_out_0.data(), _first_fc_out_1.data(), fc_vec[0].bias->data(),
                _dev_seq_id_map.data(), M_0, N_0, _attn_outs[0]->mutable_data());
@@ -252,7 +239,6 @@ template<>
             auto fc_in_data = _attn_outs[i - 1]->data();
             auto fc_out_data = _attn_outs[i]->mutable_data();
 
-            //auto kernel = saber_find_fast_sass_gemm(false, !fc_vec[i].is_transpose_weights, M, N, K);
             auto kernel = saber_find_fast_sass_gemm(false, false, M, N, K);
             kernel(M, N, K, 1.0f, fc_in_data, 0.0f, fc_vec[i].weights->data(), fc_out_data, stream);
             bias_relu<<<CUDA_GET_BLOCKS(_attn_outs[i]->valid_size()), CUDA_NUM_THREADS, 0, stream>>>(fc_out_data, fc_vec[i].bias->data(), _attn_outs[i]->valid_size(), N, fc_out_data);
@@ -268,14 +254,6 @@ template<>
         sequence_softmax<<<CUDA_GET_BLOCKS(seq_num), CUDA_NUM_THREADS, 0, stream>>>(_attn_outs[fc_num - 1]->data(), _dev_offset.data(), seq_num, _softmax_out.mutable_data());
 
         sequence_pool<<<CUDA_GET_BLOCKS(seq_num * dim), CUDA_NUM_THREADS, 0, stream>>>(input->data(), _softmax_out.data(), _dev_offset.data(), seq_num, inputs[0]->num(), dim, _pool_out.mutable_data());
-        /*data after pool need be sorted or append*/
-        //cudaDeviceSynchronize();
-        //record_dev_tensorfile<NV>(_pool_out.mutable_data(), _pool_out.valid_size(), "./sequence_pool_out_cu.txt");
-        //record_dev_tensorfile<NV>(_softmax_out.mutable_data(), _softmax_out.valid_size(), "./softmax_out_cu.txt");
-        //record_dev_tensorfile<NV>(_attn_outs[0]->mutable_data(), _attn_outs[0]->valid_size(), "./attn_fc_0_cu.txt");
-        //record_dev_tensorfile<NV>(_attn_outs[1]->mutable_data(), _attn_outs[1]->valid_size(), "./attn_fc_1_cu.txt");
-        //record_dev_tensorfile<NV>(_first_fc_out_1.mutable_data(), _first_fc_out_1.valid_size(), "./first_fc_1_cu.txt");
-        //record_dev_tensorfile<NV>(attn_param.fc_vec[0].weights->data() + 30, /*attn_param.fc_vec[0]->weights->valid_size()*/ 15, "./fc_0_weight.txt");
         
         
         auto  x_data = _pool_out.data();
@@ -298,11 +276,6 @@ template<>
         _dev_offset.data(), seq_num, word_num, hidden_size, outputs[0]->mutable_data());
 
     outputs[0]->set_seq_offset(inputs[0]->get_seq_offset());
-    CUDA_CHECK(cudaDeviceSynchronize());
-    CUDA_CHECK(cudaPeekAtLastError());
-    //cudaDeviceSynchronize();
-    //record_dev_tensorfile<NV>(outputs[0]->data(), outputs[0]->valid_size(), "./final_out.txt");
-    //record_dev_tensorfile<NV>(_lstm_out.mutable_data(), _lstm_out.valid_size(), "./lstm_out.txt");
     return SaberSuccess;
 }
 
diff --git a/saber/funcs/impl/x86/saber_attension_lstm.cpp b/saber/funcs/impl/x86/saber_attension_lstm.cpp
@@ -205,9 +205,6 @@ SaberStatus SaberAttensionLstm<X86, AK_FLOAT, AK_FLOAT, AK_FLOAT, NCHW, NCHW, NC
               1.f, inputs[0]->data(), _attn_fc_weights[0]->data(), 
               0.f, _first_fc_out_0.mutable_data());
     for (int word_id = 0; word_id < max_len; word_id++) {
-        if (word_id > 1) {
-            break;
-        }
         _attn_outs[0]->reshape(first_fc_out_0_shape);
         if (word_id > 0) {
             Shape first_fc_out_1_shape = {seq_num, _attn_fc_size[0], 1, 1}; 
@@ -240,32 +237,21 @@ SaberStatus SaberAttensionLstm<X86, AK_FLOAT, AK_FLOAT, AK_FLOAT, NCHW, NCHW, NC
         int fc_num = attn_param.fc_vec.size();
         sequence_softmax(_attn_outs[fc_num - 1]->mutable_data(), seq_offset, _softmax_out.mutable_data());
         sequence_pool(inputs[0]->data(), _softmax_out.data(), seq_offset, inputs[0]->valid_size() / word_num, _pool_out.mutable_data());
-        record_dev_tensorfile(&_pool_out,  "./pool_out_x86.txt");
-        record_dev_tensorfile(&_softmax_out,  "./softmax_out_x86.txt");
-        record_dev_tensorfile(_attn_outs[0],  "./attn_fc_0_x86.txt");
-        record_dev_tensorfile(_attn_outs[1],  "./attn_fc_1_x86.txt");
-        record_dev_tensorfile(&_first_fc_out_0,  "./first_fc_out_0.txt");
-        record_dev_tensorfile(&_first_fc_out_1,  "./first_fc_out_1.txt");
         _hidden_out.reshape(Shape(seq_num, 4*_hidden_size, 1,1));
-        LOG(INFO)<<"hidden_size" << _hidden_size;
+        //LOG(INFO)<<"hidden_size" << _hidden_size;
         gemm(false, false, seq_num, 4 * _hidden_size, _word_size, 
              1.f, _pool_out.data(), _weights_i2h, 0.f, _hidden_out.mutable_data());
         if (word_id > 0) {
             gemm(false, false, seq_num, 4 * _hidden_size, _hidden_size,
                  1.f, _lstm_out.data() + (word_id - 1) * seq_num * _hidden_size, _weights_h2h, 1.f, _hidden_out.mutable_data());
         }
-        record_dev_tensorfile(&_hidden_out,  "./hidden_out_before_act.txt");
         lstm_bias_and_act(_hidden_out.data(), _weights_bias, 
             _lstm_out.mutable_data() + word_id * seq_num * _hidden_size,
             _cell_out.mutable_data(), seq_num, _hidden_size, false);
-        record_dev_tensorfile(&_hidden_out,  "./hidden_out_after_act.txt");
-        record_dev_tensorfile(&_cell_out,  "./hidden_out_after_act.txt");
     }
 
     lstm_result_to_sequence(_lstm_out.data(), _hidden_size, seq_offset, outputs[0]->mutable_data());
     outputs[0]->set_seq_offset(seq_offset);
-    record_dev_tensorfile(outputs[0],  "./final_out_x86.txt");
-    record_dev_tensorfile(&_lstm_out,  "./lstm_out_x86.txt");
     
     return SaberSuccess;
 }
diff --git a/test/saber/cuda/test_saber_func_attension_lstm.cpp b/test/saber/cuda/test_saber_func_attension_lstm.cpp
@@ -19,7 +19,7 @@ using namespace anakin::saber;
 
 void test_saber_attension_lstm(int sequence_size = 2, int batch_size = 1, int word_size = 30,
                     int hidden_size = 15) {
-
+#if defined(USE_X86_PLACE) && defined(USE_CUDA)
     Context<NV> ctx_dev(0, 0, 0);
     Context<X86> ctx_x86(0, 0, 0);
     typedef Tensor<NV, AK_FLOAT, NCHW> TensorDf4;
@@ -28,7 +28,7 @@ void test_saber_attension_lstm(int sequence_size = 2, int batch_size = 1, int wo
     
     
 
-    std::vector<int> offsets = {0, 3, 7};
+    std::vector<int> offsets = {0, 3};
     bool is_reverse = false;
     batch_size = offsets.size() - 1;
     Shape input_shape(offsets[offsets.size() - 1], word_size, 1, 1);
@@ -206,7 +206,7 @@ void test_saber_attension_lstm(int sequence_size = 2, int batch_size = 1, int wo
 #endif
 
    return;
-
+#endif
 }
 
 TEST(TestSaberFuncNV, test_func_saber_lstm) {
diff --git a/test/saber/cuda/test_saber_func_lstm.cpp b/test/saber/cuda/test_saber_func_lstm.cpp
@@ -19,6 +19,7 @@ cublasHandle_t  cublas_handle;
 
 void test_saber_lstm(int sequence_size = 2, int batch_size = 1, int word_size = 4,
                     int hidden_size = 4) {
+#if defined(USE_CUDA) && defined(USE_X86_PLACE)
 
     Context<NV> ctx_dev(0, 0, 0);
     Context<X86> ctx_x86(0, 0, 0);
@@ -156,8 +157,8 @@ void test_saber_lstm(int sequence_size = 2, int batch_size = 1, int word_size =
              << t2.get_average_ms();
 #endif
 
+#endif
    return;
-
 }
 
 TEST(TestSaberFuncNV, test_func_saber_lstm) {