Skip to content

Commit 31bee15

Browse files
author
milen
committed
modify ernie and add ernie-doc images
1 parent ff2ea89 commit 31bee15

File tree

4 files changed

+3
-4
lines changed

4 files changed

+3
-4
lines changed
Loading
Loading
Loading

docs/tutorials/pretrain_model/erine.md

Lines changed: 3 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -11,19 +11,18 @@
1111
关于ERNIE网络结构(Transformer Encoder)的工作原理,这里不再展开讨论。接下来,我们将聚焦在ERNIE本身的主要改进点进行讨论,即三个层级的Knowledge Masking 策略。这三种策略都是应用在ERNIE预训练过程中的预训练任务,期望通过这三种级别的任务帮助ERNIE学到更多的语言知识。
1212

1313
## 2. Knowledge Masking Task
14-
训练语料中蕴含着大量的语言知识,例如词法,句法,语义信息,如何让模型有效地学习这些复杂的语言知识是一件有挑战的事情。BERT使用了MLM(masked language-model)和NSP(Next Sentence Prediction)两个预训练任务来进行训练,这两个任务可能并不能让BERT学到那么多复杂的语言知识,特别是后来多个研究人士提到NSP任务是比较简单的任务,它实际的作用不是很大。
14+
训练语料中蕴含着大量的语言知识,例如词法,句法,语义信息,如何让模型有效地学习这些复杂的语言知识是一件有挑战的事情。BERT使用了MLM(masked language-model)和NSP(Next Sentence Prediction)两个预训练任务来进行训练,这两个任务可能并不足以让BERT学到那么多复杂的语言知识,特别是后来多个研究人士提到NSP任务是比较简单的任务,它实际的作用不是很大。
1515

1616
----
1717
**说明:**
1818

19-
masked language-model(MLM)是指在训练的时候随即从输入预料上mask掉一些单词,然后通过的上下文预测该单词,该任务非常像我们在中学时期经常做的完形填空。
20-
Next Sentence Prediction(NSP)的任务是判断句子B是否是句子A的下文
19+
masked language-model(MLM)是指在训练的时候随即从输入预料上mask掉一些单词,然后通过的上下文预测这些单词,该任务非常像我们在中学时期经常做的完形填空。
20+
Next Sentence Prediction(NSP)的任务是判断连个句子是否是具有前后顺承关系的两句话
2121

2222
----
2323

2424
考虑到这一点,ERNIE提出了Knowledge Masking的策略,其包含三个级别:ERNIE将Knowledge分成了三个类别:`token级别(Basic-Level)``短语级别(Phrase-Level)``实体级别(Entity-Level)`。通过对这三个级别的对象进行Masking,提高模型对字词、短语的知识理解。
2525

26-
> token级别:在英文中一个token就是一个单词,在中文中一个token就是一个字
2726

2827
**图2**展示了这三个级别的Masking策略和BERT Masking的对比,显然,Basic-Level Masking 同BERT的Masking一样,随机地对某些单词(如 written)进行Masking,在预训练过程中,让模型去预测这些被Mask后的单词;Phrase-Level Masking 是对语句中的短语进行masking,如 a series of;Entity-Level Masking是对语句中的实体词进行Masking,如人名 J. K. Rowling。
2928

0 commit comments

Comments
 (0)