Update O2 inference.

SuperXiang · SuperXiang · commit e93c3e908592 · 2023-05-18T15:14:35.000+08:00
diff --git a/apps/protein_folding/helixfold/gpu_infer.sh b/apps/protein_folding/helixfold/gpu_infer.sh
@@ -28,11 +28,14 @@ distributed=false
 # 'fp32' or 'bf16'
 PRECISION='bf16'
 
-# Disable C++ enisum, using python enisum
-export FLAGS_new_einsum=0
+# 'O1' or 'O2'
+AMP_LEVEL='O1'
 
-# Enable bf16 optimization
-export FLAGS_use_autotune=1
+# Enable C++ enisum instead of python enisum
+export FLAGS_new_einsum=1
+
+# Enable/Disable bf16 optimization
+export FLAGS_use_autotune=0
 
 if [ $distributed == true ]
 then
@@ -79,5 +82,6 @@ $python_cmd run_helixfold.py \
   --preset='full_dbs' \
   --random_seed=0 \
   --precision=${PRECISION} \
+  --amp_level=${AMP_LEVEL} \
   --subbatch_size=${SUBBATCH_SIZE} \
   ${@:2}
diff --git a/apps/protein_folding/helixfold/gpu_infer_long.sh b/apps/protein_folding/helixfold/gpu_infer_long.sh
@@ -37,11 +37,14 @@ distributed=true
 # 'fp32' or 'bf16'
 PRECISION='bf16'
 
-# Disable C++ enisum, using python enisum
-export FLAGS_new_einsum=0
+# 'O1' or 'O2'
+AMP_LEVEL='O1'
 
-# Enable bf16 optimization
-export FLAGS_use_autotune=1
+# Enable C++ enisum instead of python enisum
+export FLAGS_new_einsum=1
+
+# Enable/Disable bf16 optimization
+export FLAGS_use_autotune=0
 
 if [ $distributed == true ]
 then
@@ -89,5 +92,6 @@ $python_cmd run_helixfold.py \
   --preset='full_dbs' \
   --random_seed=0 \
   --precision=${PRECISION} \
+  --amp_level=${AMP_LEVEL} \
   --subbatch_size=${SUBBATCH_SIZE} \
   ${@:2}
diff --git a/apps/protein_folding/helixfold/gpu_train.sh b/apps/protein_folding/helixfold/gpu_train.sh
@@ -9,6 +9,7 @@ python_bin="/opt/conda/envs/helixfold/bin/python"
 # python_bin="python3"
 
 # export NCCL_DEBUG=INFO
+# export LD_LIBRARY_PATH=/usr/local/cuda/compat:$LD_LIBRARY_PATH
 export PYTHONPATH=$root_path:$PYTHONPATH
 # export PADDLE_NODE_NUM=$PADDLE_TRAINERS_NUM
 # export PADDLE_NODE_NUM=1
@@ -17,11 +18,11 @@ LDDT_SCORE_BIN="$root_path/tools/lddt"
 chmod +x $TM_SCORE_BIN
 chmod +x $LDDT_SCORE_BIN
 
-# Disable C++ enisum, using python enisum
-export FLAGS_new_einsum=0
+# Enable C++ enisum instead of python enisum
+export FLAGS_new_einsum=1
 
-# Enable bf16 optimization
-export FLAGS_use_autotune=1
+# Enable/Disable bf16 optimization
+export FLAGS_use_autotune=0
 
 train_af2_single() {
     start_step=0
@@ -37,6 +38,7 @@ train_af2_single() {
             --start_step=${start_step} \
             --train_step=${train_step} \
             --precision=${precision} \
+            --amp_level=${amp_level} \
             --num_workers 6 \
             --seed 2022 \
             --batch_size=$batch_size \
@@ -66,6 +68,7 @@ train_af2_distributed() {
             --start_step=${start_step} \
             --train_step=${train_step} \
             --precision=${precision} \
+            --amp_level=${amp_level} \
             --num_workers 6 \
             --seed 2022 \
             --batch_size=$batch_size \
@@ -95,6 +98,8 @@ mkdir -p debug_log debug_models
         model_name="initial"
         precision="bf16"
         # precision="fp32"
+        # amp_level="O1"
+        amp_level="O2"
         log_step="--log_step=20"
         eval_step="--eval_step=1000"
         save_step="--save_step=1000"
@@ -116,10 +121,13 @@ mkdir -p debug_log debug_models
         model_name="finetune"
         precision="bf16"
         # precision="fp32"
+        # amp_level="O1"
+        amp_level="O2"
         log_step="--log_step=20"
         eval_step="--eval_step=1000"
         save_step="--save_step=1000"
-        # init_model="$root_path/data/pd_params/model_5.pdparams"
+        # init_model="$root_path/data/params/params_model_1.npz"
+        # init_model="$root_path/data/pd_params/model_1.pdparams"
         train_af2_single
     fi
 }
@@ -139,6 +147,8 @@ mkdir -p debug_log debug_models
         model_name="initial"
         precision="bf16"
         # precision="fp32"
+        # amp_level="O1"
+        amp_level="O2"
         log_step="--log_step=20"
         eval_step="--eval_step=1000"
         save_step="--save_step=1000"
@@ -163,10 +173,13 @@ mkdir -p debug_log debug_models
         model_name="finetune"
         precision="bf16"
         # precision="fp32"
+        # amp_level="O1"
+        amp_level="O2"
         log_step="--log_step=20"
         eval_step="--eval_step=1000"
         save_step="--save_step=1000"
-        # init_model="$root_path/data/pd_params/model_5.pdparams"
+        # init_model="$root_path/data/params/params_model_1.npz"
+        # init_model="$root_path/data/pd_params/model_1.pdparams"
         train_af2_distributed
     fi
 }
@@ -186,6 +199,8 @@ mkdir -p debug_log debug_models
         model_name="initial"
         precision="bf16"
         # precision="fp32"
+        # amp_level="O1"
+        amp_level="O2"
         log_step="--log_step=20"
         eval_step="--eval_step=1000"
         save_step="--save_step=1000"
@@ -210,10 +225,13 @@ mkdir -p debug_log debug_models
         model_name="finetune"
         precision="bf16"
         # precision="fp32"
+        # amp_level="O1"
+        amp_level="O2"
         log_step="--log_step=20"
         eval_step="--eval_step=1000"
         save_step="--save_step=1000"
-        # init_model="$root_path/data/pd_params/model_5.pdparams"
+        # init_model="$root_path/data/params/params_model_1.npz"
+        # init_model="$root_path/data/pd_params/model_1.pdparams"
         train_af2_distributed
     fi
 }
@@ -232,6 +250,8 @@ mkdir -p debug_log debug_models
         model_name="initial"
         precision="bf16"
         # precision="fp32"
+        # amp_level="O1"
+        amp_level="O2"
         log_step="--log_step=20"
         eval_step="--eval_step=1000"
         save_step="--save_step=1000"
@@ -253,6 +273,8 @@ mkdir -p debug_log debug_models
         model_name="initial"
         precision="bf16"
         # precision="fp32"
+        # amp_level="O1"
+        amp_level="O2"
         log_step="--log_step=20"
         eval_step="--eval_step=1000"
         save_step="--save_step=1000"
@@ -274,6 +296,8 @@ mkdir -p debug_log debug_models
         model_name="initial"
         precision="bf16"
         # precision="fp32"
+        # amp_level="O1"
+        amp_level="O2"
         log_step="--log_step=20"
         eval_step="--eval_step=1000"
         save_step="--save_step=1000"
diff --git a/apps/protein_folding/helixfold/run_helixfold.py b/apps/protein_folding/helixfold/run_helixfold.py
@@ -36,7 +36,7 @@
 
 from utils.init_env import init_seed, init_distributed_env
 from ppfleetx.distributed.protein_folding import dp, dap, bp
-from utils.utils import get_bf16_op_list
+from utils.utils import get_custom_amp_list
 
 logging.basicConfig()
 logger = logging.getLogger(__file__)
@@ -120,8 +120,8 @@ def predict_structure(
 
         def _forward_with_precision(processed_feature_dict):
             if args.precision == "bf16":
-                black_list, white_list = get_bf16_op_list()
-                with paddle.amp.auto_cast(level='O1', custom_white_list=white_list, custom_black_list=black_list, dtype='bfloat16'):
+                black_list, white_list = get_custom_amp_list()
+                with paddle.amp.auto_cast(enable=True, custom_white_list=white_list, custom_black_list=black_list, level=args.amp_level, dtype='bfloat16'):
                     return model_runner.predict(
                                 processed_feature_dict,
                                 ensemble_representations=True,
@@ -235,7 +235,7 @@ def main(args):
 
         data_dir = pathlib.Path(args.data_dir)
         params = f'params_{model_name}'
-        model_params = data_dir.joinpath('params', f'{params}.pd')
+        model_params = data_dir.joinpath('params', f'{params}.pdparams')
         if not model_params.exists():
             model_params = data_dir.joinpath('params', f'{params}.npz')
 
@@ -356,6 +356,7 @@ def main(args):
                         help='The random seed for the data pipeline. '
                         'By default, this is randomly generated.')
     parser.add_argument("--precision", type=str, choices=['fp32', 'bf16'], default='fp32')
+    parser.add_argument("--amp_level", type=str, default='O1')
     parser.add_argument('--distributed',
                         action='store_true', default=False,
                         help='Whether to use distributed DAP inference.')
diff --git a/apps/protein_folding/helixfold/train.py b/apps/protein_folding/helixfold/train.py
@@ -144,16 +144,23 @@ def eval(args, model, eval_dataset, compute_loss, cache_dir=None):
             batch['feat'] = align_feat(batch['feat'], args.dap_degree)
             batch['label'] = align_label(batch['label'], args.dap_degree)
         
-        if args.precision == "bf16" and args.amp_level == "O2":
-            black_list, white_list = get_custom_amp_list()
-            with paddle.amp.auto_cast(enable=True,
-                                      custom_white_list=white_list,
-                                      custom_black_list=black_list,
-                                      level=args.amp_level,
-                                      dtype='bfloat16'):
-                res = model(batch, compute_loss=compute_loss)
-        else:
-            res = model(batch, compute_loss=compute_loss)
+        # inference
+        def _forward_with_precision(batch):
+            if args.precision == "bf16":
+                black_list, white_list = get_custom_amp_list()
+                with paddle.amp.auto_cast(enable=True,
+                                          custom_white_list=white_list, 
+                                          custom_black_list=black_list, 
+                                          level=args.amp_level, 
+                                          dtype='bfloat16'):
+                    return model(batch, compute_loss=compute_loss)
+            elif args.precision == "fp32":
+                return model(batch, compute_loss=compute_loss)
+            else:
+                raise ValueError("Please choose precision from bf16 and fp32! ")
+        
+        # res = model(batch, compute_loss=compute_loss)
+        res = _forward_with_precision(batch)
         if compute_loss:
             results, loss = res
             if loss.dtype == paddle.bfloat16: