Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition

Background(要解决的问题)

在NER任务中，存在着未标注实体问题（unlabeled entity problem）——数据集中存在被标注工作人员漏标的实体。一般模型会把这类实体当作“负样本”，这会严重误导模型的训练。

论文的方法部分很简单，总共分为两步：

本文采用的标注框架是上周学习到的片段排列标注框架，即对句子中存在的每个span $(i,j)$进行二分类，其计算公式如下：
$$
s_{i,j} = h_i \oplus h_j \oplus(h_i-h_j)\oplus(h_i\odot h_j)
$$

$$
o_{i,j} = Softmax({\bf U} tanh({\bf V}s_{i,j}))
$$

论文具体的降噪方式很简单，就是对所有非实体片段进行负采样（下采样）。采样进行loss计算的非实体片段共有$\lambda n$个，$n$为序列长度，$\lambda=0.1,0.2,…,0.9$。

模型的损失函数如下：

前者为标注损失，后者为负采样损失。

论文采用3种指标来衡量实体漏标带来的影响，分别是F1，侵蚀率$\alpha_p$，误导率$\beta_p$。如上图可见，随着Mask Probability（漏标的概率）的增加，F1下降，侵蚀率上升，误导率上升，模型的性能出现显著地下降。

从上图可以看出，随着漏标概率$p$的增加，传统BERT Tagging模型的性能会剧烈下降，而负采样方法则变化并不是很明显。

从上图可以看出，随着漏标概率$p$的增加，负采样方法可以使得误导率保持一个很低的水平。

此外，在实际的NER数据集上，基于负采样的模型也取得了SOTA：

本文的方法很简单，基本就是上周那篇论文Span-based Joint Entity and Relation Extraction with Transformer Pre-training中讲到的东西用到NER任务上罢了；
不过比较震惊的是，从文章的结果可以看出，引入负采样技术减弱漏标数据的影响却能够带来如此之大的性能提升！

CarlYoung

http://yc1999.github.io/2021/05/23/empirical-analysis-of-unlabeled-entity-problem-in-named-entity-recognition/