科大讯飞-事件抽取挑战赛 赛事概要


前言:

毕设选题是事件抽取,但是这一周了解下来,我遇到了两个问题:

  1. 网络上关于事件抽取的论文都好杂好乱,连一篇优质综述都没找到,一点都不系统化。
  2. 自己做的评测任务——《面向金融领域的小样本跨类迁移事件抽取》没有很好的开源解决方案,所以NLP小白一度觉得很迷,不知如何下手。

因此,针对上面两个问题,我打算通过《科大讯飞-事件抽取挑战赛》这个比赛来解决:一边看开源解决方案,一边补充其中涉及到的事件抽取/NLP知识,以复现开源解决方案来促进自己的学习。同时也需要每周阅读几篇另外的顶会论文来扩展自己的视野。

🔗原文链接:http://challenge.xfyun.cn/topic/info?type=hotspot

赛事概要

一、赛事背景

事件抽取将非结构化文本中的事件信息展现为结构化形式,在舆情监测、文本摘要、自动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中,由于文本中可能存在句式复杂,主被动转换,多事件主客体共享等难点,因此“事件抽取”是一项极具挑战的抽取任务。

二、赛事任务

本赛事任务旨在从通用新闻文本中抽取事件触发词事件论元以及事件属性

在传统的事件定义中,事件由事件触发词(Trigger)描述事件结构的元素(Argument)构成。事件触发词标识着事件的发生。事件论元为事件主体(Subject)、客体(Object)、时间(Time)、地点(Location)等,是表达事件重要信息的载体。

事件属性包括事件极性(Polarity)、时态(Tense),是衡量事件是否真实发生的重要依据。 通过极性,事件分为肯定、否定、可能事件。通过时态,事件分为过去发生的事件、现在正在发生的事件、将要发生的事件以及其他无法确定时态的事件。

本赛事任务一为初赛任务,任务二为复赛任务,在任务一的基础上增加了事件属性识别。为了模拟真实场景,数据中包含了非实际发生的事件。

📝任务一:事件触发词及论元抽取

该任务旨在从文本中抽取标识事件发生的触发词和论元,触发词往往为动词和名词。触发词对应的事件论元,主要为主体(Subject)、客体(Object)、时间(Time)、地点(Location),其中主体为必备论元。

示例 1:

文本:北京时间 3 月 27 日晚上 7 点 15 分,英国首相鲍里斯约翰逊确诊感染了新冠肺炎。

抽取结果:

示例 2:

文本:4 月 1 日,因应英国央行英伦银行的要求,汇丰控股及渣打集团一举停止派息及回购。

抽取结果:

示例 3:

文本:过渡政府部队发言人说, 北约的战机 1 6 日在苏尔特附近击中了一座建筑,炸死大批卡扎菲部队士兵。

抽取结果:

示例 4:

文本:中华人民共和国证监会正式表态,对中国星巴克瑞幸咖啡财务造假行为表示强烈的谴责。

抽取结果:

📝任务二:事件属性抽取

该任务旨在从文本中抽取表达事件发生状态的属性,包括极性、时态。极性分为:肯定、否定、可能;时态分为:过去、现在、将来、其他。

示例 1:

文本:中国驻俄罗斯大使张汉晖 4 月 7 日向媒体回应称,经向俄有关强力部门了解,目前在俄没有一起中国公民遭到拘留或受到俄强力部门限制的案例。

抽取结果:

示例 2:

文本:过往世卫组织曾 5 度宣布“国际关注公共卫生紧急事件”。

抽取结果:

示例 3:

文本:英国很可能将恢复接受世界贸易组织条款的规范。

抽取结果:

示例 4:

文本:看守政府总理迈赫迪打算驱逐约 5300 名美国士兵。

抽取结果:

三、评审规则

1. 初赛数据说明

本次比赛初赛为参赛选手提供了6958条中文句子,及其9644条提取结果(存在一对多的情况)

1.1 训练集:共5758条句子,包含句子中对应的触发词、论元等,用于竞赛模型训练。(训练集在data/preliminary/train.csv当中)

1.2 测试集:共1200条句子。(测试集在data/preliminary/test.csv中)

2. 复赛数据说明

本次比赛复赛为参赛选手提供了3335条中文句子,及其3384条提取结果(存在一对多的情况)

2.1 训练集:共2456条句子,包含句子中对应的触发词、论元及其角色、事件属性等,用于竞赛模型训练。

2.2 测试集:共879条句子。

3. 评价指标

本模型依据提交的结果文件,采用F值进行评价。

3.1 事件触发词及论元抽取评价指标

对于事件触发词及论元抽取,使用触发词进行事件对齐,对于触发词匹配的事件,计算论元F值。最终F值包括论元与触发词(将触发词当做一种论元计算得分)。论元F值为严格F值松弛F值的平均得分。

3.1.1 严格F值:预测论元与标注论元必须完全匹配(类型必须正确)

论元准确率$P_{span}$ = 预测论元和标注论元匹配的个数 / 预测论元个数

论元召回率$R_{span}$ = 预测论元和标注论元匹配的个数 / 标注论元个数

论元F值 $F1_{span}$ = $2P_{span}* R_{span} /( P_{span} + R_{span})$

3.1.2 松弛F值:预测论元与标注论元存在字符级别匹配也能得到部分分数(类型必须正确)

论元准确率$P_{char}$ = 预测论元和标注论元匹配的字符数 / 预测论元字符数

论元召回率$R_{char}$ = 预测论元和标注论元匹配的字符数 / 标注论元字符数

论元F值 $F1_{char}$ = $2 P_{char}*R_{char} /( P_{char} + R_{char})$

3.1.3 最终得分:$F1 = (F1_{span} + F1_{char}) / 2$

3.2 事件属性抽取评价指标

对于事件属性抽取,使用F值进行评价。

属性准确率P = 预测属性和标注属性匹配的个数/ 预测属性个数

属性召回率R = 预测属性和标注属性匹配的个数 / 标注属性个数

属性F值 F1= 2 P R /( P+ R)

4. 评测及排行

  1. 初赛和复赛均提供下载数据,选手在本地进行算法调试,在比赛页面提交结果。
  2. 每支团队每天最多提交3次。
  3. 排行按照得分从高到低排序,排行榜将选择团队的历史最优成绩进行排名。

四、作品提交要求

  1. 文件格式 :按照 csv 格式提交

  2. 文件大小 :无要求

  3. 提交次数限制 :每支队伍每天最多 3 次

  4. 文件详细说明 :

    1. 对于该赛题复赛阶段的所有数据,统一采用json格式,编码格式为utf-8,结构及关键字解释如下:

    2)提交格式见样例

五、赛程规则

初赛 6月22日——8月21日

  1. 初赛截止成绩以团队在初赛时间段内最优成绩为准(不含测试排名)。
  2. 初赛作品提交截止日期为8月20日17:00;初赛名次公布日期为8月21日10:00。

复赛 8月21日——9月21日

  1. 排名前20%的团队晋级复赛,大赛官网将公示团队信息。选手通过大赛官网下载新增的训练集和开发集,本地调试算法,在线提交结果。
  2. 复赛成绩以参赛团队在复赛时间段内最优成绩为准。
  3. 复赛作品提交截止日期为9月20日17:00;复赛名次公布日期为9月21日10:00。

决赛 10月24日

  1. 前三名团队将受邀参加科大讯飞全球1024开发者节并于现场进行决赛。
  2. 决赛以答辩(10min陈述+5min问答)的形式进行。
  3. 根据复赛成绩和答辩成绩综合评分(复赛成绩占比70%,现场答辩分数占比30%)。

六、奖项设置

  • 入围复赛
    • 复赛入围证书
    • 大赛专属Geek礼包
    • 大赛限量文化衫
  • 入围决赛
    • 科大讯飞1024开发者节全场通票
    • 决赛入围证书
    • 科大讯飞创孵基地绿色入驻通道
    • A.I.服务市场入驻特权
  • 决赛胜出
    • 决赛奖金,各赛道TOP10选手将阶梯获得赛道奖金,第一名3万元、第二名2万元、第三名1万元、第四-第十名分别获得“算法菁英奖”2500元。
    • 参与1024全球开发者节颁奖盛典,现场授予奖金、证书与定制奖杯
    • A.I.全链创业扶持
    • 绿色就业通道&讯飞Offer

文章作者: CarlYoung
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 CarlYoung !
  目录