信息抽取 从零入门


原文链接:信息抽取 从零入门

信息抽取包括实体抽取关系抽取事件抽取

  • 实体抽取即找出文章里的专有名词(人名地名等),方法大致是先检测,再分类;
  • 关系抽取即找出两个名词之间的动词,一般是三元组抽取,即一个谓词(predicate)带两个形参(argument);
  • 事件抽取即将自然语言转换成结构化的信息,抽取出事件的各要素(时间、地点、人物等)。

1 数据集

最常用的数据集有 MUC、ACE、KBP、SemEval 等。其中 ACE 数据集包括 英语中文 等。

2 实体抽取

主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词:find & classify,找到命名实体,并进行分类。

传统的机器学习方法

  1. 把每个 token 标记命名实体;
  2. 特征选择;
  3. 训练一个 sequence classifier 来预测数据的 label。

4 事件抽取

事件抽取是从描述事件信息的文本中,识别并抽取出事件信息,并以结构化的形式呈现出来,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。[8]

几个概念:

  • 事件描述(Event Mention):描述事件的词组/句子/句群,包含一个 trigger 以及任意数量的 arguments
  • 事件触发(Event Trigger):事件描述中最能代表事件发生的词汇,决定事件类别的重要特征,一般是动词或者名词
  • 事件元素(Event Argument):事件的重要信息,或者说是实体描述(entity mention),主要由实体、属性值等表达完整语义的细粒度单位组成
  • 元素角色(Argument Role):事件元素在事件中扮演的角色,事件元素与事件的语义关系,可以理解为 slot
  • 事件类型(Event Type)

事件抽取基础任务是在 mention 中抽取一个 trigger 和多个 arguments,并找到每个 argument 对应的 role,以及 trigger 的 type。

因此基础的方法分成几步[9]:

  1. Trigger Identification
  2. Trigger Type Classification
  3. Argument Identification
  4. Argument Role Classification

文章作者: CarlYoung
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 CarlYoung !
  目录