
New May 31st, 2019: Whole Word Masking Models (google-research)https://github.com/google-research/bert
Whole Word Masking (wwm)是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。
简单来说,原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。 在Whole Word Masking (wwm)中,如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask。

( 需要注意的是,这里的mask指的是广义的mask(替换成[MASK];保持原词汇;随机替换成另外一个词),并非只局限于单词替换成[MASK]标签的情况。)
中文BERT-WWM
2019年哈工大和科大讯飞联合发表中文BERT-WWM模型的论文。
论文链接:https://arxiv.org/pdf/1906.08101.pdf


“