科大讯飞-事件抽取挑战赛赛事概要

NLP

发布日期: 2021-01-14

前言：

毕设选题是事件抽取，但是这一周了解下来，我遇到了两个问题：

网络上关于事件抽取的论文都好杂好乱，连一篇优质综述都没找到，一点都不系统化。

自己做的评测任务——《面向金融领域的小样本跨类迁移事件抽取》没有很好的开源解决方案，所以NLP小白一度觉得很迷，不知如何下手。

因此，针对上面两个问题，我打算通过《科大讯飞-事件抽取挑战赛》这个比赛来解决：一边看开源解决方案，一边补充其中涉及到的事件抽取/NLP知识，以复现开源解决方案来促进自己的学习。同时也需要每周阅读几篇另外的顶会论文来扩展自己的视野。

🔗原文链接：http://challenge.xfyun.cn/topic/info?type=hotspot

赛事概要

一、赛事背景

事件抽取将非结构化文本中的事件信息展现为结构化形式，在舆情监测、文本摘要、自动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中，由于文本中可能存在句式复杂，主被动转换，多事件主客体共享等难点，因此“事件抽取”是一项极具挑战的抽取任务。

二、赛事任务

本赛事任务旨在从通用新闻文本中抽取事件触发词、事件论元以及事件属性。

在传统的事件定义中，事件由事件触发词（Trigger） 和描述事件结构的元素（Argument）构成。事件触发词标识着事件的发生。事件论元为事件主体（Subject）、客体（Object）、时间（Time）、地点（Location）等，是表达事件重要信息的载体。

事件属性包括事件极性（Polarity）、时态（Tense），是衡量事件是否真实发生的重要依据。通过极性，事件分为肯定、否定、可能事件。通过时态，事件分为过去发生的事件、现在正在发生的事件、将要发生的事件以及其他无法确定时态的事件。

本赛事任务一为初赛任务，任务二为复赛任务，在任务一的基础上增加了事件属性识别。为了模拟真实场景，数据中包含了非实际发生的事件。

📝任务一：事件触发词及论元抽取

该任务旨在从文本中抽取标识事件发生的触发词和论元，触发词往往为动词和名词。触发词对应的事件论元，主要为主体（Subject）、客体（Object）、时间（Time）、地点（Location），其中主体为必备论元。

示例 1：

文本：北京时间 3 月 27 日晚上 7 点 15 分，英国首相鲍里斯约翰逊确诊感染了新冠肺炎。

抽取结果：

示例 2：

文本：4 月 1 日，因应英国央行英伦银行的要求，汇丰控股及渣打集团一举停止派息及回购。

抽取结果：

示例 3：

文本：过渡政府部队发言人说, 北约的战机 1 6 日在苏尔特附近击中了一座建筑，炸死大批卡扎菲部队士兵。

抽取结果：

示例 4：

文本：中华人民共和国证监会正式表态，对中国星巴克瑞幸咖啡财务造假行为表示强烈的谴责。

抽取结果：

📝任务二：事件属性抽取

该任务旨在从文本中抽取表达事件发生状态的属性，包括极性、时态。极性分为：肯定、否定、可能；时态分为：过去、现在、将来、其他。

示例 1：

文本：中国驻俄罗斯大使张汉晖 4 月 7 日向媒体回应称，经向俄有关强力部门了解，目前在俄没有一起中国公民遭到拘留或受到俄强力部门限制的案例。

抽取结果：

示例 2：

文本：过往世卫组织曾 5 度宣布“国际关注公共卫生紧急事件”。

抽取结果：

示例 3：

文本：英国很可能将恢复接受世界贸易组织条款的规范。

抽取结果：

示例 4：

文本：看守政府总理迈赫迪打算驱逐约 5300 名美国士兵。

抽取结果：

三、评审规则

1. 初赛数据说明

本次比赛初赛为参赛选手提供了6958条中文句子，及其9644条提取结果（存在一对多的情况）：

1.1 训练集：共5758条句子，包含句子中对应的触发词、论元等，用于竞赛模型训练。（训练集在data/preliminary/train.csv当中）

1.2 测试集：共1200条句子。（测试集在data/preliminary/test.csv中）

2. 复赛数据说明

本次比赛复赛为参赛选手提供了3335条中文句子，及其3384条提取结果（存在一对多的情况）：

2.1 训练集：共2456条句子，包含句子中对应的触发词、论元及其角色、事件属性等，用于竞赛模型训练。

2.2 测试集：共879条句子。

3. 评价指标

本模型依据提交的结果文件，采用F值进行评价。

3.1 事件触发词及论元抽取评价指标

对于事件触发词及论元抽取，使用触发词进行事件对齐，对于触发词匹配的事件，计算论元F值。最终F值包括论元与触发词（将触发词当做一种论元计算得分）。论元F值为严格F值与松弛F值的平均得分。

3.1.1 严格F值：预测论元与标注论元必须完全匹配（类型必须正确）

论元准确率$P_{span}$ = 预测论元和标注论元匹配的个数 / 预测论元个数

论元召回率$R_{span}$ = 预测论元和标注论元匹配的个数 / 标注论元个数

论元F值 $F1_{span}$ = $2P_{span}* R_{span} /( P_{span} + R_{span})$

3.1.2 松弛F值：预测论元与标注论元存在字符级别匹配也能得到部分分数（类型必须正确）

论元准确率$P_{char}$ = 预测论元和标注论元匹配的字符数 / 预测论元字符数

论元召回率$R_{char}$ = 预测论元和标注论元匹配的字符数 / 标注论元字符数

论元F值 $F1_{char}$ = $2 P_{char}*R_{char} /( P_{char} + R_{char})$

3.1.3 最终得分：$F1 = (F1_{span} + F1_{char}) / 2$

3.2 事件属性抽取评价指标

对于事件属性抽取，使用F值进行评价。

属性准确率P = 预测属性和标注属性匹配的个数/ 预测属性个数

属性召回率R = 预测属性和标注属性匹配的个数 / 标注属性个数

属性F值 F1= 2 P R /( P+ R)

4. 评测及排行

初赛和复赛均提供下载数据，选手在本地进行算法调试，在比赛页面提交结果。
每支团队每天最多提交3次。
排行按照得分从高到低排序，排行榜将选择团队的历史最优成绩进行排名。

四、作品提交要求

文件格式：按照 csv 格式提交
文件大小：无要求
提交次数限制：每支队伍每天最多 3 次
文件详细说明：
1. 对于该赛题复赛阶段的所有数据，统一采用json格式，编码格式为utf-8，结构及关键字解释如下：
2)提交格式见样例

五、赛程规则

初赛 6月22日——8月21日

初赛截止成绩以团队在初赛时间段内最优成绩为准（不含测试排名）。
初赛作品提交截止日期为８月20日17:00；初赛名次公布日期为8月21日10:00。

复赛 8月21日——9月21日

排名前20%的团队晋级复赛，大赛官网将公示团队信息。选手通过大赛官网下载新增的训练集和开发集，本地调试算法，在线提交结果。
复赛成绩以参赛团队在复赛时间段内最优成绩为准。
复赛作品提交截止日期为９月20日17:00；复赛名次公布日期为９月21日10:00。

决赛 10月24日

前三名团队将受邀参加科大讯飞全球1024开发者节并于现场进行决赛。
决赛以答辩（10min陈述+5min问答）的形式进行。
根据复赛成绩和答辩成绩综合评分（复赛成绩占比70%，现场答辩分数占比30%）。

六、奖项设置

入围复赛
- 复赛入围证书
- 大赛专属Geek礼包
- 大赛限量文化衫
入围决赛
- 科大讯飞1024开发者节全场通票
- 决赛入围证书
- 科大讯飞创孵基地绿色入驻通道
- A.I.服务市场入驻特权
决赛胜出
- 决赛奖金，各赛道TOP10选手将阶梯获得赛道奖金，第一名3万元、第二名2万元、第三名1万元、第四-第十名分别获得“算法菁英奖”2500元。
- 参与1024全球开发者节颁奖盛典，现场授予奖金、证书与定制奖杯
- A.I.全链创业扶持
- 绿色就业通道&讯飞Offer