原文链接:信息抽取 从零入门
信息抽取包括实体抽取、关系抽取、事件抽取。
- 实体抽取即找出文章里的专有名词(人名地名等),方法大致是先检测,再分类;
- 关系抽取即找出两个名词之间的动词,一般是三元组抽取,即一个谓词(predicate)带两个形参(argument);
- 事件抽取即将自然语言转换成结构化的信息,抽取出事件的各要素(时间、地点、人物等)。
1 数据集
最常用的数据集有 MUC、ACE、KBP、SemEval 等。其中 ACE 数据集包括 英语、中文 等。
2 实体抽取
主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词:find & classify,找到命名实体,并进行分类。
传统的机器学习方法
- 把每个 token 标记命名实体;
- 特征选择;
- 训练一个 sequence classifier 来预测数据的 label。
…
4 事件抽取
事件抽取是从描述事件信息的文本中,识别并抽取出事件信息,并以结构化的形式呈现出来,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。[8]
几个概念:
- 事件描述(Event Mention):描述事件的词组/句子/句群,包含一个 trigger 以及任意数量的 arguments
- 事件触发(Event Trigger):事件描述中最能代表事件发生的词汇,决定事件类别的重要特征,一般是动词或者名词
- 事件元素(Event Argument):事件的重要信息,或者说是实体描述(entity mention),主要由实体、属性值等表达完整语义的细粒度单位组成
- 元素角色(Argument Role):事件元素在事件中扮演的角色,事件元素与事件的语义关系,可以理解为 slot
- 事件类型(Event Type)
事件抽取基础任务是在 mention 中抽取一个 trigger 和多个 arguments,并找到每个 argument 对应的 role,以及 trigger 的 type。
因此基础的方法分成几步[9]:
- Trigger Identification
- Trigger Type Classification
- Argument Identification
- Argument Role Classification