modify yaml for global ref

liuhongen1234567 · liuhongen1234567 · commit be3208321d65 · 2024-12-20T06:00:02.000Z
diff --git a/configs/rec/PP-FormuaNet/rec_pp_formulanet_l.yml b/configs/rec/PP-FormuaNet/rec_pp_formulanet_l.yml
@@ -15,7 +15,9 @@ Global:
   infer_img: doc/datasets/pme_demo/0000013.png
   infer_mode: False
   use_space_char: False
-  rec_char_dict_path:  ppocr/utils/dict/unimernet_tokenizer
+  rec_char_dict_path: &rec_char_dict_path ppocr/utils/dict/unimernet_tokenizer
+  max_new_tokens: &max_new_tokens 1024
+  input_size: &input_size [768, 768]
   save_res_path: ./output/rec/predicts_unimernet_latexocr.txt
   allow_resize_largeImg: False
   start_ema: True
@@ -43,7 +45,7 @@ Architecture:
     encoder_global_attn_indexes: [2, 5, 8, 11]
   Head:
     name: PPFormulaNet_Head
-    max_new_tokens: 1024
+    max_new_tokens: *max_new_tokens
     decoder_start_token_id: 0
     decoder_ffn_dim: 2048
     decoder_hidden_size: 512
@@ -62,7 +64,7 @@ Loss:
 
 PostProcess:
   name:  UniMERNetDecode
-  rec_char_dict_path: ppocr/utils/dict/unimernet_tokenizer
+  rec_char_dict_path:  *rec_char_dict_path
 
 Metric:
   name: LaTeXOCRMetric
@@ -76,12 +78,12 @@ Train:
     label_file_list: ["./ocr_rec_latexocr_dataset_example/train.txt"]
     transforms:
       - UniMERNetImgDecode:
-          input_size: [768, 768]
+          input_size: *input_size
       - UniMERNetTrainTransform: 
       - LatexImageFormat:
       - UniMERNetLabelEncode:
-          rec_char_dict_path: ppocr/utils/dict/unimernet_tokenizer
-          max_seq_len: 1024
+          rec_char_dict_path: *rec_char_dict_path
+          max_seq_len:  *max_new_tokens
       - KeepKeys:
           keep_keys: ['image', 'label', 'attention_mask']
 
@@ -99,12 +101,12 @@ Eval:
     label_file_list: ["./ocr_rec_latexocr_dataset_example/val.txt"]
     transforms:
       - UniMERNetImgDecode:
-          input_size: [768, 768]
+          input_size: *input_size
       - UniMERNetTestTransform:
       - LatexImageFormat:
       - UniMERNetLabelEncode:
-          max_seq_len: 1024
-          rec_char_dict_path: ppocr/utils/dict/unimernet_tokenizer
+          max_seq_len:  *max_new_tokens
+          rec_char_dict_path: *rec_char_dict_path
       - KeepKeys:
           keep_keys: ['image', 'label', 'attention_mask', 'filename']
   loader:
diff --git a/configs/rec/PP-FormuaNet/rec_pp_formulanet_s.yml b/configs/rec/PP-FormuaNet/rec_pp_formulanet_s.yml
@@ -15,7 +15,9 @@ Global:
   infer_img: doc/datasets/pme_demo/0000013.png
   infer_mode: False
   use_space_char: False
-  rec_char_dict_path:  ppocr/utils/dict/unimernet_tokenizer
+  rec_char_dict_path: &rec_char_dict_path  ppocr/utils/dict/unimernet_tokenizer
+  max_new_tokens: &max_new_tokens 1024
+  input_size: &input_size [384, 384]
   save_res_path: ./output/rec/predicts_unimernet_latexocr.txt
   allow_resize_largeImg: False
   start_ema: True
@@ -40,7 +42,7 @@ Architecture:
 
   Head:
     name: PPFormulaNet_Head
-    max_new_tokens: 1024
+    max_new_tokens:  *max_new_tokens
     decoder_start_token_id: 0
     decoder_ffn_dim: 1536
     decoder_hidden_size: 384
@@ -60,7 +62,7 @@ Loss:
 
 PostProcess:
   name:  UniMERNetDecode
-  rec_char_dict_path: ppocr/utils/dict/unimernet_tokenizer
+  rec_char_dict_path: *rec_char_dict_path
 
 Metric:
   name: LaTeXOCRMetric
@@ -74,12 +76,12 @@ Train:
     label_file_list: ["./ocr_rec_latexocr_dataset_example/train.txt"]
     transforms:
       - UniMERNetImgDecode:
-          input_size: [384, 384]
+          input_size: *input_size
       - UniMERNetTrainTransform: 
       - LatexImageFormat:
       - UniMERNetLabelEncode:
-          rec_char_dict_path: ppocr/utils/dict/unimernet_tokenizer
-          max_seq_len: 1024
+          rec_char_dict_path: *rec_char_dict_path
+          max_seq_len: *max_new_tokens
       - KeepKeys:
           keep_keys: ['image', 'label', 'attention_mask']
 
@@ -97,12 +99,12 @@ Eval:
     label_file_list: ["./ocr_rec_latexocr_dataset_example/val.txt"]
     transforms:
       - UniMERNetImgDecode:
-          input_size: [384, 384]
+          input_size:  *input_size
       - UniMERNetTestTransform:
       - LatexImageFormat:
       - UniMERNetLabelEncode:
-          max_seq_len: 1024
-          rec_char_dict_path: ppocr/utils/dict/unimernet_tokenizer
+          max_seq_len: *max_new_tokens
+          rec_char_dict_path: *rec_char_dict_path
       - KeepKeys:
           keep_keys: ['image', 'label', 'attention_mask', 'filename']
   loader:
diff --git a/configs/rec/rec_unimernet.yml b/configs/rec/rec_unimernet.yml
@@ -15,7 +15,9 @@ Global:
   infer_img: doc/datasets/pme_demo/0000013.png
   infer_mode: False
   use_space_char: False
-  rec_char_dict_path:  ppocr/utils/dict/unimernet_tokenizer
+  rec_char_dict_path: &rec_char_dict_path ppocr/utils/dict/unimernet_tokenizer
+  input_size: &input_size [192, 672]
+  max_seq_len: &max_seq_len 1024
   save_res_path: ./output/rec/predicts_unimernet_plus_config_latexocr.txt
   allow_resize_largeImg: False
 
@@ -59,7 +61,7 @@ Loss:
 
 PostProcess:
   name:  UniMERNetDecode
-  rec_char_dict_path: ppocr/utils/dict/unimernet_tokenizer
+  rec_char_dict_path: *rec_char_dict_path
 
 Metric:
   name: LaTeXOCRMetric
@@ -73,12 +75,12 @@ Train:
     label_file_list: ["./train_data/UniMERNet/train_unimernet_1M.txt"]
     transforms:
       - UniMERNetImgDecode:
-          input_size: [192, 672]
+          input_size: *input_size
       - UniMERNetTrainTransform: 
       - UniMERNetImageFormat:
       - UniMERNetLabelEncode:
-          rec_char_dict_path: ppocr/utils/dict/unimernet_tokenizer
-          max_seq_len: 1024
+          rec_char_dict_path: *rec_char_dict_path
+          max_seq_len: *max_seq_len
       - KeepKeys:
           keep_keys: ['image', 'label', 'attention_mask']
   loader:
@@ -95,12 +97,12 @@ Eval:
     label_file_list: ["./train_data/UniMERNet/test_unimernet_cpe.txt"]
     transforms:
       - UniMERNetImgDecode:
-          input_size: [192, 672]
+          input_size: *input_size
       - UniMERNetTestTransform:
       - UniMERNetImageFormat:
       - UniMERNetLabelEncode:
-          max_seq_len: 1024
-          rec_char_dict_path: ppocr/utils/dict/unimernet_tokenizer
+          max_seq_len: *max_seq_len
+          rec_char_dict_path: *rec_char_dict_path
       - KeepKeys:
           keep_keys: ['image', 'label', 'attention_mask']
   loader:
diff --git a/ppocr/losses/rec_ppformulanet_loss.py b/ppocr/losses/rec_ppformulanet_loss.py
@@ -26,6 +26,7 @@ def __init__(self, vocab_size=50000, parallel_step=1):
         self.vocab_size = vocab_size
         self.parallel_step = int(parallel_step)
         self.pad_token_id = 1
+        # ignore padding characters during training
         self.cross = nn.CrossEntropyLoss(
             reduction="mean", ignore_index=self.ignore_index
         )
@@ -54,7 +55,7 @@ def __init__(self, vocab_size=50000):
         self.ignore_index = -100
         self.vocab_size = vocab_size
         self.pad_token_id = 1
-        # 训练时是否忽略 padding？
+        # ignore padding characters during training
         self.cross = nn.CrossEntropyLoss(
             reduction="mean", ignore_index=self.ignore_index
         )